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摘要 : [目的 /意义 ] 基于 成 果 特 征 标识 学 者 的 学 术 专 长 是 学 者 画像 的 重要 任务 ,对 学 者 分 类 、 评 审 专家 中 
选 发 现 小 同行 等 应 用 具有 重要 价值 。[ 方 法“ 过程] 首先 分 析 揭 示 学 术 专 长 的 因素 ,用 层次 分 析 法 构造 专长 标 
签 权 重 分 配 模型 ;采用 TextRank 和 概念 链接 技术 从 中 英文 成 果 内 容 中 识别 主题 术语 ,结合 权重 篇 选 出 具有 领域 
共识 和 专长 概括 性 的 词汇 作为 专长 标签 。 选 取 获 得 人 才 称 号 的 多 个 领域 科研 人 员 , 从 中 文 或 英文 代表 成 果 中 
提取 专长 标签 ,以 人 才 公 示 中 的 专长 领域 作为 对 照 基准 ,通过 人 工 打 分 和 语义 计算 评测 识别 效果 。[ 结果 / 结 
论 ] 在 被 贴 中 文 专长 标签 的 学 者 中 ,71.9% 的 个 体 的 专长 描述 被 认为 满意 。 在 被 贴 英文 专长 标签 的 学 者 中 ， 
77.2% 的 个 体 的 专长 描述 被 认为 满意 。 实 验 表明 提出 的 学 者 学 术 专 长 识别 方法 具有 合理 性 。 主 要 创新 在 于 : 


英文 不 同 语种 以 及 是 否 存 在 外 部 知识 库 的 条 件 下 ,提出 从 文献 内 容 中 挖掘 候选 标签 词 的 解决 方案 ;结合 计 
素 , 用 多 种 成 果 特 征 筛 选 专 长 标签 ,并 提出 权重 分 配 的 方案 ;针对 评价 基准 欠缺 的 问题 ,提出 基于 语义 计算 


蚁 芒 式 补充 答案 ,从 而 扩充 评价 手段 。 
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在 人 类 社会 迈 向 知识 时 代 的 进程 中 ,掌握 知识 的 
人 残 为 越 来 越 有 价值 的 资源 。 学 者 是 这 类 资源 中 的 典 
型 "具有 丰富 特征 ,其 学 术 专 长 对 标识 学 者 知识 特征 
最 久 重 要 ,可 用 于 对 学 者 的 分 类 检索 ,帮助 发 现 小 同 
行 棕 以 便 促 进 交流 合作 ,还 可 用 于 更 准确 地 敌 选 论文 
或 辆 目的 评审 专家 " ” 。 同 时 ,文献 检索 系统 、 个 性 化 
学 习 、 知 识 协 作 等 面向 知识 群体 的 应 用 也 需要 根据 用 
户 的 学 术 专 长 改进 服务 精准 度 。 因 而 ,标识 学 者 的 学 
术 专 长 是 一 个 极 具 现实 意义 的 研究 问题 。 

在 本 文中 ,学 术 专 长 是 指 学 者 擅长 的 研究 方向 。 
基于 成 果 特 征 刻画 学 者 学 术 专 长 的 核心 问题 有 两 方 
面 : 一 是 分 析 体 现 学 者 专长 的 因素 ;二 是 从 成 果 中 识别 
“有 领域 共识 且 概 括 专长 的 词汇 作为 标签 。 为 了 表述 
方便 ,笔者 将 成 果 内 容 中 概括 性 强 、 规 范 性 好 的 词汇 称 
为 主题 术语 ;能 标识 学 者 专长 的 词汇 称 为 专长 标签 , 主 
题 术语 为 专长 标签 提供 候选 词 。 

目前 ,获取 学 者 专长 的 方法 有 两 类 :一 是 从 个 人 主 


并 


页 .简历 等 来 源 直接 提取 ;二 是 从 学 者 的 成 果 内 容 中 识 
别 恰当 的 词汇 。 在 前 一 种 方式 中 ,学 者 给 出 的 专长 描 
述 词 汇 数 量 少 、 表 述 习 惯 因 人 而 异 , 且 研究 表明 仪 有 
21.3% 的 学 者 会 在 其 主页 中 给 出 研究 兴趣 ”, 所 以 提 
取 结 果 的 完善 度 、 规 范 性 和 及 时 性 并 不 能 得 到 保证 。 
现 有 工作 通常 从 学 者 发 表 的 论文 等 成 果 中 提取 其 研究 
兴趣 ”。 学 者 成 果 内 容 扩 展 了 专长 标签 的 来 源 和 数 
量 , 可 使 标签 更 客观 全 面 ,还 可 从 学 者 新 发 表 的 成 果 中 
及 时 发 现 新 的 兴趣 标签 。 但 从 成 果 中 自动 识别 出 的 词 
汇 如 何 能 兼 具 领域 共识 和 专长 代表 性 ,是 值得 深入 研 
究 的 问题 ;特别 是 当 学 者 群体 不 限于 特定 领域 , 且 成 果 
有 中 英文 不 同 语种 时 ,这 一 问题 就 更 具有 挑战 性 。 
笔者 首先 分 析 学 者 成 果 中 能 揭示 其 学 术 专 长 的 重 
要 因素 ,如 学 者 对 成 果 的 贡献 .成果 对 学 术 界 的 贡献 以 
及 用 于 概括 成 果 的 术语 质量 等 。 其 次 ,采用 TextRank 
和 概念 链接 技术 ,分 别 识别 中 文 和 英文 成 果 中 的 主题 
术语 。 最 后 根据 层次 分 析 法 构造 权重 分 配 模 型 ,按照 
权重 对 候选 词 打 分 ,筛选 出 能 反映 学 者 研究 专长 的 标 
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签 , 从 而 解决 学 术 专 长 识别 问题 。 


2 相关 研究 


刻画 学 者 的 学 术 专长 属于 学 者 画像 的 一 个 重要 方 
面 。 学 者 画像 是 通过 分 析 学 者 的 个 人 描述 信息 、 成 果 
或 学 术 行 为 ,识别 并 提取 恰当 的 标签 来 概括 学 者 的 个 
人 特征 .研究 兴趣 以 及 学 术 影 响 力 " 等 。 信 息 环境 中 
用 户 画 像 的 目的 是 为 用 户 提供 更 加 精准 的 个 性 化 服 
务 '" ,而 学 者 画像 可 用 于 改进 对 科研 群体 的 精准 化 和 
个 性 化 服务 ,识别 学 者 专长 就 是 其 中 的 核心 。 
2.1 专长 特征 分 析 

能 够 反映 学 者 专长 的 信息 包括 学 者 发 表 的 成 
果 " .承担 的 科研 项 目 ”、 合 作 关系 ”论文 引用 
每 一 其 中 ,有 两 类 信息 对 揭示 学 者 的 专长 非常 重要 , 即 
成 林内 容 特 征 和 学 者 对 成 果 的 贡献 度 。 前 者 是 指 对 成 
果肉 容 有 重要 概括 度 是 有 领域 共识 的 词汇 ,后 者 体现 
学 稳 与 成 果 的 关联 以 及 成 果 对 学 术 界 的 价值 。 
2G91! 成 果 内 容 特征 ”在 论文 ,项 目 等 成 果 中 ,作者 
给 出 的 关键 词 与 成 果 的 研究 主题 密切 相关 ,但 这 些 词 
仙 荔 于 标 引 成 果 本 身 ,而 不 是 侧重 于 表达 作者 的 专长 。 
春 古 ,作者 关键 词 普遍 存在 用 词 不 规范 现象 ,例如 语义 
粒 饮 不 均匀 , 标 引 深度 把 握 不 当 以 及 通用 词 标 引 过 
和 钦 二 六 等 。 因 此 ,直接 用 作者 关键 词 标识 学 者 专长 并 
不 至 想 , 有 时 还 会 引入 噪音 词汇 。 鉴 于 成 果 内 容 中 包 
命 器 加 丰富 的 信息 ,从 中 挖 抉 出 有 重要 概括 度 且 有 领 


作 现 象 普遍 存在 。 统 计 表 明 2015 年 国内 科技 论文 领 
域 的 合 著 论文 数量 占 论文 总 数 的 92.3%'" 。 对 图 情 
领域 4 种 核心 期 刊 的 分 析 发 现 ,2 -3 人 合 著 发 文成 为 
主流 ,而 4 人 及 4 人 以 上 合 著 将 成 为 未 来 合 著 的 趋 
势 " 。 每 个 合作 者 对 成 果 的 贡献 并 不 相同 ,这 就 意味 
着 同一 成 果 在 揭示 每 位 作者 专长 上 的 价值 并 不 等 同 。 
因此 ,需要 选择 代表 性 成 果 来 体现 作者 的 实质 性 贡献 。 
在 科研 计量 评价 中 ,一 些 研究 常常 会 经 验 性 地 按照 作 
者 署名 位 序 区 分 作者 贡献 。 问 卷 调查 显示 , 约 82% 
的 被 调查 者 认为 署名 顺序 与 作者 贡献 相关 ,署名 越 靠 
前 的 作者 对 研究 成 果 贡 献 越 大 "”。 根 据 多 数学 科 领 
域 的 署名 习惯 ,通常 认为 第 一 作者 和 通讯 作者 与 成 果 
贡献 的 关系 更 密切 ”。 此 外 ,由 于 学 者 在 其 研究 生涯 
中 一 般 会 有 多 篇 发 文 ,发 文 量 ” .发 文 时 间 、 被 引 量 


等 因素 对 确定 学 者 对 成 果 的 贡献 也 有 参考 价值 。 学 者 
的 发 文 量 和 发 文 时 间 可 以 反映 其 领域 活跃 度 , 而 被 引 
量 则 可 以 反映 其 学 术 成 果 的 质量 以 及 同行 的 认可 程 
度 。 在 对 学 者 影响 力 排 名 中 ,综合 考虑 上 述 重要 的 影 
响 因素 构建 指标 被 认为 更 具 区 分 效果 、 更 全 面 精 
细 '”” 。 因 此 ,笔者 选用 成 果 被 引 量 、 作 者 署名 位 序 因 
素 筛选 学 者 专长 标签 。 
2.2 ”基于 成 果 内 容 的 主题 术语 识别 

从 成 果 内 容 中 识别 学 者 专长 标签 的 一 个 基本 任务 
是 发 现成 果 中 具有 领域 共识 的 主题 术语 。 按 照 是 否 依 
赖 于 外 部 知识 可 大 致 分 为 直接 和 间接 两 种 方式 。 直 接 
方式 的 优点 是 不 依赖 于 已 有 的 领域 知识 体系 ;间接 方 
式 是 利用 词典 .本 体 、 知 识 图 谱 等 领域 知识 库 , 将 成 果 
内 容 通过 语义 计算 映射 到 规范 受 控 的 领域 术语 空间 
中 ,其 优点 是 使 标签 词汇 在 语义 和 粒度 上 更 规范 。 
2.2.1 直接 方式 ”此 类 方法 重点 在 于 度量 词汇 对 整 
体内 容 的 重要 性 。 从 实现 上 ,可 以 通过 构建 词汇 共 现 
网 络 ,用 TextRank 等 算法 识别 网 络 中 重要 度 高 的 节 
点 作为 反映 学 者 专长 的 关键 词汇 ;还 可 以 考虑 词 
汇 在 文档 中 的 位 置 影响 力 在 网 络 中 的 覆盖 能 
力 ” ,或 结合 词 频 、 词 语 位 置 等 特征 衡量 其 重要 性 。 
除了 成 果 本 身 ,借助 与 其 相关 的 人 及 行为 也 能 发 现 揭 
示 内 容 的 重要 词汇 ,例如 借鉴 从 博客 内 容 中 筛选 标签 
的 做 法 ,考虑 评论 .引用 、 链 接 等 外 在 特征 计算 内 容 中 
关键 词 的 重要 度 '”。 目 前 使 用 较 多 的 还 有 基于 语义 
计算 的 方法 ,例如 采用 主题 模型 得 到 成 果 中 玉 含 的 主 
题 分 布 以 及 主题 对 应 的 词汇 分 布 ,并 将 出 现 概 率 大 的 
主题 及 词汇 作为 标识 学 者 专长 的 依据 ””。 但 这 样 的 
结果 对 人 类 的 可 解释 性 并 不 友好 ,因为 主题 的 语义 是 
通过 若干 词 的 分 布 隐 含 地 表达 ,而 且 概率 大 的 主题 仅 
表示 论文 中 频繁 出 现 的 主题 ,不 一 定 能 揭示 学 者 的 领 
域 专长 。 词 嵌入 表示 方式 提出 以 后 ,有 研究 采用 
Word2vec 构造 词汇 向 量 来 改进 语义 计算 的 灵活 性 ,将 
词汇 共 现 网 络 中 的 节点 用 词 向 量 表示 ,通过 计算 词汇 
相似 度 来 改进 候选 关键 词 的 权重 分 配 ,提升 领域 关键 
词 识别 准确 性 |。 
2.2.2 ”间接 方式 ”该 方法 重点 是 选取 成 果 中 的 重要 
词汇 并 向 规范 受 控 的 领域 术语 空间 进行 合理 映射 。 外 
部 知识 库 包括 基于 期 刊 文献 构造 的 专长 词典 3 ,以 及 
现 有 的 领域 概念 本 体 ” 等。 借助 外 部 知识 库 进行 重 
要 概念 识别 通常 采用 概念 链接 技术 ”3 。 以 维基 百 
科 为 例 ,具体 做 法 是 将 维基 百科 文章 页 面 的 标题 词汇 
作为 概念 术语 , 先 用 词性 、 词 频 等 一 般 的 自然 语言 处 理 
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手段 识别 成 果 内 容 中 的 重要 词汇 ;用 词汇 在 成 果 内 容 
和 维基 百科 中 出 现 的 统计 信息 以 及 词汇 之 间 的 关联 关 
系 ,将 其 自动 映射 到 维基 百科 概念 术语 ,从 而 实现 成 果 
中 词汇 的 规范 化 。 这 类 方法 不 但 可 以 用 于 术语 规范 
化 ,还 可 以 用 于 语义 消 歧 等 诸多 任务 ,主要 工具 有 Tag- 
me ”| Wikifier”” 等 。 
2.3 ”本 文 与 相关 研究 的 不 同 之 处 

在 识别 学 者 学 术 专 长 上 ,有 一 些 前 人 研究 与 本 文 
的 任务 相关 。 刘 晓 瑰 等 以 规范 处 理 后 的 论文 关键 
词 为 特征 ,基于 重 琶 KK-Means 聚 类 算法 识别 大 数据 领 
域 的 专家 专长 类 别 ,但 该 研究 并 未 探讨 如 何 自动 形成 
能 恰当 标识 专家 专长 的 标签 毛 进 等 5 以 论文 全 文中 
的 高 频 名 词 为 特征 ,构建 计算 语言 学 领域 专家 图 谱 , 但 
访 研 究 没 有 考虑 到 同一 篇 论文 的 合作 者 对 成 果 的 贡献 
有 去 相 同 ,同样 的 专长 词汇 来 标识 不 同 贡 献 的 人 并 不 
愉 沼 ; 范 晓 玉 等 "基于 成 果 内 容 和 计量 特征 提取 科研 
储 逮 标签 ,并 根据 作者 贡献 和 成 果 新 旧 来 调整 标签 权 
恰 相 该 研究 只 针对 选 定 的 两 位 学 者 进行 实现 ,并 未 对 
大 时 学 者 的 专长 标签 识别 进行 方法 和 效果 上 的 检验 。 
〇 综 上 ,本 研究 与 现 有 工作 的 不 同 之 处 主要 有 :QD 对 
2 站 文 不 同 成 果 , 提 出 从 其 内 容 中 自动 识别 具有 领域 
大 加 、 目 将 度 合理 的 主题 术语 ,作为 候选 的 专长 标签。 
梢 比 于 从 简历 等 来 源 直接 抽取 ,该 方法 更 加 客观 ,保证 
了 丢 签 的 丰富 性 与 多 样 性 ,而 且 能 及 时 发 现 学 者 新 的 
今 医 标签。 加 将 学 者 对 成 果 的 贡献 度 作为 候选 标签 的 
权 续 因素 ,有 助 于 在 科研 合作 普遍 的 情况 下 ,区 分 不 同 
作 才 的 专长 差别 。@@ 采 用 层次 分 析 法 筛选 专长 标签 ， 
将 合 性 与 定量 方式 相 结合 ,不 仅 计算 简便 ,而 且 结果 可 
解释 性 更 好 ,在 实际 应 用 中 更 容易 被 用 户 理解 。@ 面 
对 缺乏 标准 评测 集 的 现状 ,采用 人 工 打分 与 语义 计算 
相 结合 的 实验 设计 与 评价 方法 ,最 大 程度 地 补充 了 专 
长 标签 的 评价 手段 。 
3 ”专长 标签 识别 方法 

从 成 果 中 识别 专长 标签 的 朴素 假设 是 :学 者 近期 
代表 作对 体现 其 学 术 专 长 有 重要 价值 。 可 以 从 学 者 贡 
献 较 大 的 近期 重要 成 果 中 找到 有 领域 共识 的 规范 词汇 
来 筛选 专长 标签 。 笔 者 采用 层次 分 析 法 对 体现 学 者 专 
长 的 重要 因素 构造 权重 分 配 模型 ,通过 权重 分 析 确 定 
各 项 特征 的 重要 程度 ,然后 用 直接 及 间接 的 方式 计算 
学 者 成 果 中 所 有 候选 主题 术语 的 分 值 , 并 综合 以 上 因 
素 簿 选 高 分 词汇 作为 专长 标签 。 在 从 成 果 内 容 中 获取 
主题 术语 时 ,由 于 开放 的 多 领域 优质 中 文 知识 库 比较 
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欠缺 ,而 英文 知识 库 则 有 公认 质量 较 高 且 和 覆盖 领域 广 
泛 的 维基 百科 ,因此 笔者 对 中 英文 分 别 采 用 了 直接 和 
间接 的 方式 。 
3.1 标签 权重 分 配 模型 

设 学 者 7 的 成 果 集合 为 刀 , 专 长 标签 集合 为 4。 标 
识 r 的 专长 标签 应 满足 :由 能 反映 7 研究 领域 特征 , 具 
有 概括 性 和 规范 性 ,用 B, 表示 ;@ 来 自 " 有 实质 贡献 
的 重要 成 果 , 即 体现 + 对 该 专长 领域 的 贡献 度 , 用 有 
表示 。 

根据 2.1 节 对 专长 特征 的 调研 ,定义 如 图 1 所 示 
的 学 者 专长 标签 权重 分 配 模型 。B 对 应 的 因素 主要 
包括 原文 关键 词 C 和 候选 主题 术语 C,,B, 对 应 的 因 
素 主要 包括 署名 位 序 C, 和 成 果 被 引 量 C, ,它们 分 别 表 
示 了 上 对 成 果 的 贡献 ,以 及 学 术 群 体 对 成 果 的 认可 程度 。 


原文 关键 词 候选 主题 术语 署名 位 序 成 果 被 引 量 
音 到 GC & 


1 学 者 专长 标签 权重 分 配 层次 模型 


笔者 用 层次 分 析 法 计算 专长 标签 的 特征 权重 ,得 
到 描述 学 者 专长 的 标签 。 层 次 分 析 法 是 一 种 定量 定性 
相 结 合 的 方法 ,将 决策 问题 分 解 为 不 同 目标 的 层次 结 
构 ,通过 求解 判断 矩阵 特征 向 量 , 找 到 每 一 层次 的 各 元 
素 对 上 一 层次 某 元 素 的 优先 权重 ,再 逐 层 归并 得 到 总 
目标 的 最 终 权重 , 以 最 大 的 最 终 权 重 作 为 最 优 方案 。 
该 方法 的 结果 有 一 定 可 解释 性 ,在 学 者 学 术 影 响 力 评 
价 ”“ 科技 人 员 论 文学 术 价 值 评估 ”等 很 多 方面 均 有 
应 用 。 

采用 德尔 非法 对 图 1 确定 各 因素 两 两 间 相 对 重要 
程度 ,构造 判断 矩阵 MM。MWM, 代 表 某 上 层 因 素 对 应 的 下 
层 因素 i 与 7 的 重要 性 比较 结果 ,如 公式 (1) 所 示 : 
公式 (1) 

对 于 因素 B, 和 B, ,与 词汇 的 概括 性 和 规范 性 相 
比 ,r 对 其 专长 领域 的 贡献 度 对 识别 专长 标签 更 有 影 
响 ,认为 有 比 B, 稍微 重要 ,因此 确定 4 一 B 判断 矩阵 
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2 1 上 E 


| .二 
Mi =1,M; = (i,j=1,2) 
庙 


"| 
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陈 囊 ， 李楠 , 梁 冰 ,等 .基于 成 果 特 征 的 学 者 学 术 专 长 识别 方法 [J]. 图 书 情报 工作 ,2019 ,63(20) :96 - 103. 


对 于 因素 C, 和 0, ,在 科研 成 果 中 ,原文 关键 词 C， 
是 作者 给 出 的 ,在 表达 成 果 内 容 和 主题 上 有 天 然 的 重 
要 性 ,很 多 研究 也 会 用 关键 词 进行 主题 挖掘 和 专长 识 
别 。C, 是 从 内 容 中 自动 识别 的 词汇 。 相 比 之 下 ,CG 的 
受 认可 程度 比 C, 更 大 , 即 C, 比 C, 稍微 重要 ,因此 确 


1 之 
定 忆 一 C 判断 年 阵 Wi, =| | 让 


对 于 因素 C; 和 C4 ,由 于 科研 合 著 发 文 的 普遍 性 ， 
C; 是 成 果 作者 共同 认可 的 署名 次 序 , 能 体现 > 对 成 果 
的 实质 贡献 程度 ,C 是 成 果 本 身 的 领域 贡献 度 。 即 使 
r 的 成 果 被 引 量 高 ,但 如 果 其 署名 位 序 靠 后 且 不 是 通讯 
作者 则 不 能 说 明 其 贡献 大 。 在 体现 + 对 成 果实 质 贡 献 
上 ,Cs 比 C 明显 重要 ,因此 确定 B, 一 C 判断 矩阵 M, = 


等 征 向 量 到 = (0. 22, 0. 11, 0. 54, 0,13)。 各 级 指 
标 对 应 因素 的 权重 系数 如 表 1 所 示 : 
©O 表 1 各 级 指标 及 其 权重 表 


3.2 ”主题 术语 识别 
对 于 任 一 学 者 7 的 成 果 文 档 集 合 D = 1d,d,， 
a ,d,| ,通过 直接 或 间接 方式 识别 出 的 领域 主题 术 
语 集合 记 为 7 = | 六， ,t|。 本 小 节 要 实现 的 任 
务 是 D 一 7, , 即 从 成 果 内 容 中 识别 主题 术语 。 
3.2.1 中 文 主题 术语 识别 ”由 于 缺少 开放 的 多 领域 
中 文 知识 库 , 笔 者 采用 直接 方式 生成 7,。 首 先 对 DD 构 
造 词汇 共 现 网 络 ,计算 词汇 节点 在 网 络 中 的 重要 度 。 
TextRank" 是 在 词汇 共 现 网 络 中 衡量 节点 重要 性 的 常 
见方 法 ,利用 投票 原理 ,在 给 定 共 现 窗口 阔 值 内 ,根据 
节点 间 的 连接 关系 获得 每 个 节点 对 邻居 节点 的 投票 ， 
票 的 权重 取决 于 自己 所 得 的 票数 。 某 节点 的 TextRank 
值 由 邻居 节点 投票 计算 得 到 ,依据 TextRank 值 排序 可 
得 到 候选 主题 术语 。 
3.2.2 英文 主题 术语 识别 “采用 间接 方式 从 英文 成 
果 中 识别 7,。 以 维基 百科 页 面 标题 作为 概念 ,对 成 
果 内 容 中 的 重要 词汇 用 概念 链接 技术 计算 出 映射 到 
概念 的 链接 概率 和 一 致 性 5 ,从 而 得 到 重要 词汇 的 
受 控 概念 。 这 一 做 法 避免 了 词汇 存在 同 义 和 二 义 现 
象 对 标识 专长 造成 的 影响 。 图 2 为 Tagme 标注 工具 


CE 一 级 指标 权重 ”二 级 指标 权重 对 某 英文 摘要 进行 主题 术语 识别 的 结果 示例 。 该 方 
关键 语 | C > 上 | [3 : : : 9 T 

S 词汇 概括 性 和 规范 性 8， 0.33 原文 关键 词 C 0.22 法 将 文中 “machine learning techniques” 映射 到 维基 百 

候选 主题 术语 C，0.11 | 4 . \ 、 
学 者 专长 标签 4 全 二 古林 前 的 科 “Machine Learning”, 这 一 较 规 范 的 词汇 可 以 作为 

> 了 署名 位 序 C3 ”0.54 a 

i 学 者 专长 领域 贡献 度 B 0.67 候选 主题 术语 。 
成 果 被 引 量 C4 0.13 

© 

[en The automated categorization (or classification) of texts into predefined categories has 

mm witnessed a booming interest in the last 10 years, due to the increased availability of 

J documents in digital form and the ensuing need to organize them. In the research 

OO community the dominant approach to this problem is based on machine learning 


techniques: a general inductive process automatically builds a (Machine learning 

set of preclassified documents, the characteristics of the categt Machine learning, a branch of artificial 

this approach over the knowledge engineering approach (consis intelligence, is a scientific discipline concerned 
of a classifier by domain experts) are a very good effectiveness with the design and development of algorithms 


terms of expert labor power, and straightforward portability to ! 


that allow computers to evolve behaviors based 
on empirical da... 


图 2 Tagme 概念 链接 工具 在 英文 摘要 中 标注 术语 的 结果 示例 


3.3 专长 标签 选择 

在 图 1 中 ,从 CC 到 B, 的 阶段 是 在 学 者 7 的 主 
题 术语 集合 7 = | 和 ,世上 和 成 果 的 作者 关键 词 
集合 7 中 选择 出 专长 标签 集合 7', ,实现 任务 (7, ,7,) 
一 7',。 计 算 r 的 候选 主题 术语 集合 7, 中 Vte 7 对 
应 的 权重 , 若 te 7T,, 则 t6 =1 且 t=0, 反 之 则 t=0 
且 z =1。 

从 C;、Cs 到 B, 的 阶段 :用 m 表示 作者 署名 位 序 ， 
令 =1/m, 将 通讯 作者 视 为 第 一 作者 位 序 。 用 n 表 


示 t 所 在 成 果 被 引 量 ,n' 表 示 7 所 有 成 果 被 引 量 之 和 ， 
则 to = n/n'。 
最 后 ,通过 公式 (2) 计 算 每 个 主题 术语 i 作为 候选 
专长 标签 的 得 分 s(t) 。 比 较 同一 学 者 7 的 所 有 成 果 的 
候选 专长 标签 得 分 ,并 将 相同 标签 对 应 得 分 求 和 。 最 
后 ,选择 得 分 大 于 特定 阅 值 或 指定 数量 的 标签 作为 7 
的 专长 标签 。 本 文 实验 中 选择 了 得 分 前 5 位 的 标签 。 
s(t) =0.22xic +0.11xte+0.S4xte +0.13x 
c, 公式 (2) 
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图 二 情报 三 作 
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4 ”实验 及 结果 


4.1 ”数据 与 方法 

4.1.1 实验 数据 笔者 从 北京 市 科学 技术 委员 会 官 
网 公布 的 “北京 市 科技 新 星 ” 人 才 计 划 名 单 ,选取 2013 
-2017 年 人 选 的 科研 人 员 557 人 ,专业 涵盖 理工 农林 
医 等 各 个 领域 。 通 过 百度 学 术 及 个 人 主页 等 来 源 获取 
上 述 人 员 在 近 5 年 的 论文 和 项 目 成 果 数 据 ,包括 标题 、 
关键 词 及 摘要 等 。 对 同一 作者 的 论文 按 被 引 量 降序 排 
列 ,在 前 5 篇 中 ,如 果 中 文 占 多 数 就 选 3 篇 中 文 论文 作 
为 其 代表 作 , 反 之 选 3 篇 英文 论文 。 如 果 可 获取 的 成 
果 不 足 5 篇 就 取 多 数 语种 中 的 2 篇 作为 代表 作 。 别 除 
数据 缺失 值 较 多 的 人 员 , 共 得 到 科研 人 员 480 人 , 记 为 
R。 其 中 对 应 中 文成 果 的 人 才 300 人 , 记 为 尺 ,中 文成 
果 闫 为 867 篇 ;对 应 英文 成 果 的 人 才 180 人 , 记 为 R.， 
英文 成 果 数 为 520 篇 。 
E52 识别 方法 ”对 中 文成 果 的 标题 .摘要 等 数据 经 
过 HanLP 中 文 处 理工 具 包 预 处 理 然后 用 TextRank 算 


法 结合 词 频 和 词 长 等 启发 式 规则 提取 论文 中 重要 的 词 
汇 作为 主题 术语 。 对 英文 成 果 用 Tagme 工具 将 论文 摘 
要 中 的 词汇 映射 到 维基 百科 概念 。 得 到 候选 主题 术语 
后 ,根据 层次 分 析 法 计算 得 分 最 高 的 5 个 词汇 作为 学 
者 的 专长 标签 。 
4.2 实验 结果 

表 2 和 表 3 中 分 别 列 出 了 基于 中 文 和 英文 成 果 的 
科研 人 员 专 长 标签 识别 结果 样 例 。 其 中 ,$ 为 “科技 新 
星 ” 申 报 者 + 的 专业 领域 ,在 本 文中 作为 评测 基准 。7, 
为 申报 者 近年 影响 力 高 的 代表 作 中 的 作者 关键 词 集 
合 ,7 为 从 代表 作 中 识别 出 的 候选 主题 术语 集合 ,7'， 
为 本 文 方法 得 到 的 专长 标签 词汇 集合 。 直 观 上 ,从 内 
容 中 提取 出 的 主题 术语 7 与 7, 有 一 定 的 重合 度 ,但 
语义 粒度 不 那么 细微 ,能 表达 更 大 的 主题 ,而 7 的 词 
汇 粒 度 较 不 均匀 ,例如 7 的 7 中 “人 硬 膜 外 麻醉 ” 比 7， 
中 “患者 麻醉 ”粒度 更 细 , 而 7 的 7 中 “Quality of serv- 
ice( 服务 质量 ) ”又 过 于 笼统 ,粒度 太 粗 。 


O 


表 2 中 文 专长 标签 识别 结果 样 例 


Ti: 


Tp 


TD 


城市 轨道 交通 


麻 ; 硬 膜 外 麻醉 ……: 


生命 周期 ;综合 管理 …… 


麻醉 ; 异 气 醚 ; 异 丙 酚 ; 丙 泊 酚 ;剂量 ;全 


城市 轨道 交通 ;轨道 交通 产业 构成 ;全 


丙 泊 酚 ; 丙 泊 酚 剂量 ; 异 丙 酚 ; 异 气 醚 ; 
结肠 瘤 ;患者 麻 醇 …… 

轨道 交通 ;城市 轨道 ;生命 周期 ;智能 管 
理 ;综合 管理 …… 


表 3 英文 专长 标签 识别 结果 样 例 


yn 


Tp 


丙 泊 酚 ; 异 丙 酚 ; 异 氟 醚 ; 丙 泊 酚 剂 量 ; 
患者 麻醉 


业 链 ;全 生命 周期 ;综合 管理 


G3 神经 外 科 


ra 计算 机 软件 


5 评测 与 分 析 


在 与 本 文 同类 的 研究 中 ,一 个 最 突出 的 困难 是 没 


Ganglioglioma( 神经 节 细 胞 胶 质 瘤 ) ; Intra- 
ventricular( 脑室 内) ;Hydrocephalus ( 脑 积 
水 ) ;Prognosis( 预后) ;Von Hippel-Lindau 
disease(VHL 综合 征 ) ; Hemangioblastoma 


(血管 母 细胞 瘤 )…… 


Quality of service( 服务 质量 ) ;service -ori- 
ented architecture ( 面向 服务 的 体系 结 
构 ); Computational modeling( 计算 建 模 ) ; 
Big Data( 大 数据 ) ; Web services( Web 服 
务 ) ;Petri nets( Petri 网 )……: 


Ganglioglioma( 神 经 节 细 胞 胶 质 瘤 ) ; Hy- 
drocephalus ( 脑 积 水 ) ; Ventricular system 
(脑室 系统 ) ;Surgical pathology( 外 科 病 理 
学 ) ;Von Hippel -Lindau disease ( VHL 综 


Basel problem( 巴塞 尔 问题 ) ;Cloud com- 


puting( 云 计算 ) ; service -oriented architec- 
ture( 面 向 服务 的 体系 结构 ); Interval a- 
rithmetic( 区 间 算 法 );Web services ( Web 
服务 ) ;Petri nets( Petri 网 )…… 


人 工 打 分 的 客观 性 。 
5.1 


专长 标签 进行 正式 打分 ,最 后 经 评分 一 致 特 


Ganglioglioma( 神经 节 神 经 胶 质 瘤 ) ;Hy- 
drocephalus( 脑 积 水 ) ; Ventricular system 
(脑室 系统 ) ; Von Hippel -Lindau disease 
(VHL 综合 征 ) Surgical pathology( 外 科 病 
理学 ) 

service -oriented architecture ( 面向 服务 的 
体系 结构 ) ;Big Data( 大 数据 ) ;Web serv- 
ices( Web 服务 ) ;Petri nets( Petri 网 ) Com- 
putational modeling( 计算 建 模 ) 


FE 检 验 保证 


评测 者 领域 辨识 能 力 检测 


有 公认 的 标准 评测 集 。 笔 者 选用 科技 新 星人 才 公示 的 
专业 领域 作为 评测 集 $S。 但 $ 中 的 词汇 数量 少 、 粒 度 
粗 ,直接 作为 评测 标准 并 不 理想 。 因 此 评判 依据 分 为 
两 部 分 :一 是 来 自 人 工 打分 ;二 是 采用 词 向 量 相似 度 判 
断 7', 与 5 的 语义 关联 。 为 了 使 人 工 评测 结果 具有 可 
信 性 ,首先 对 评测 者 进行 领域 辨识 能 力 检测 ,笔者 招募 
了 来 自 工科 、 理 科 、 社 科 等 不 同 专业 的 10 名 志愿 者 。 
志愿 者 通过 检测 并 进行 标注 训练 ,才能 对 科研 人 员 的 
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领域 辨识 能 力 实验 主要 是 分 析 志 愿 者 对 各 专业 领 
域 的 了 解 程度 和 判断 领域 专长 的 能 力 。 检 测 方 法 :在 
R. 和 RR, 中 各 随机 选择 50 名 科研 人 员 的 成 果 摘要 和 关 
键 词 , 并 以 选择 题 形式 展示 包含 标准 答案 在 内 的 4 个 
相似 领域 词汇 ;志愿 者 根据 对 成 果 内 容 的 理解 ,选择 最 
相关 的 专业 领域 ;根据 正确 率 评价 志愿 者 的 辨识 能 力 。 
选项 中 与 标准 答案 相似 的 领域 词汇 均 是 通过 Word2vec 
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陈 囊 ， 李楠, 梁 冰 ,等 .基于 成 果 特 征 的 学 者 学 术 专 长 识别 方法 [J]. 图 书 情报 工作 ,2019 ,63(20) :96 - 103. 


计算 词 向 量 相似 度 得 到 的 。 在 表 4 中 ,根据 科技 新 星 
人 才 公示 ,特定 > 的 专业 领域 是 “化 学 电源 ”, 它 是 标准 
答案 ;用 词 向 量 算出 $ 中 与 其 语义 最 相近 的 其 他 3 个 
词汇 选项 ;如 果 志 愿 者 选择 C 就 记 作 正 确 ,否则 记 作 错 
误 。 


表 4 领域 辨识 能 力 实验 题目 示例 


请 阅读 下 面 的 论文 摘要 和 关键 词 ,选择 与 之 最 相关 的 作者 研究 
领域 
商 要 :根据 电池 的 外 观 , 电 性 能 ,环境 适应 性 和 安全 性 等 检测 项 
目 ,鉴于 部 分 检测 过 程 中 可 能 存在 的 火爆 炸 , 漏 气 漏 液 ,噪声 振 
题目 内 容 “动机 械 和 电气 等 危险 ,从 人 员 .样品 .设备 和 环境 等 方面 ,提出 
了 相应 的 安全 防护 要 求 和 建议 。 
关键 词 :电池 检测 实验 室 安全 防护 
i A 化 学 B 材料 化 学 C 化 学 电源 D 环境 化 学 


在 中 英文 领域 判断 实验 中 ,正确 率 达到 90% 的 志 
愿 者 分 别 为 9 人 和 4 人 。 因 此 ,他 们 可 以 作为 评测 者 
分 别 对 生成 的 中 英文 专长 标签 进行 人 工 打分 。 
专长 标签 人 工 评价 
人 工 评价 主要 是 让 评测 者 根据 领域 知识 和 评测 标 
准 列 断 特定 学 者 的 专长 标签 的 合理 性 。 对 VreRR， 
提 倘 7 的 中 文 专长 标签 及 其 中 文 代表 作 ; 对 Vre R,, 提 
伐 P9 英 文 专长 标签 及 其 英文 代表 作 。 打 分 结果 分 为 
满 总 (1) .不 确定 (0) 或 者 不 满意 ( - 1) 。“ 满 意 ”表示 
反 现 专长 .语义 粒度 合理 且 词 汇 具 有 领域 共识 ; “不满 
意 表 示 不 反映 专长 .语义 粒度 不 合理 或 无 领域 特色 。 
每 位 评测 者 需 独 立 完 成 R, 或 中 所 有 学 者 专长 标签 
集 输 的 打分 。 
.三 采用 SPSS 软件 并 计算 Kendall's W 系数 对 评测 者 
的 评分 进行 一 致 性 检验 。 最 终 得 到 中 文 实验 评测 者 的 
评分 一 致 性 系数 0. 924 ,英文 实验 评测 者 的 评分 一 致 
性 系数 0. 921 , 在 检验 水 平 为 0. 05 时 ,P 值 均 小 于 
0.001 ,检验 结果 显著 。 结 果 表 明 评测 者 对 标签 合理 性 
打分 判断 具有 很 强 的 一 致 性 。 

按照 服从 多 数 的 原则 ,在 每 个 的 标签 打分 结果 
中 ,如 果 评 分 为 “1” 的 数量 达到 评分 者 半数 及 以 上 , 则 
认为 对 自动 生成 的 标签 满意 。 经 统计 ,R, 及 R, 中 补 
判断 为 专长 标签 满意 的 科研 人 员 占 比 P, 分 别 为 
65.3% 和 68.3% 。 打 分 结果 表明 ,笔者 从 中 英文 论文 
中 识别 出 的 学 者 专长 标签 具有 一 定 的 合理 性 。 
5.3 专长 标签 语义 计算 补充 评价 

由 于 评测 标准 词 数量 少 ,语义 粒度 粗 ,不 足以 给 评 
测 人 员 提 供 更 丰富 的 领域 信息 。 为 此 对 判定 结果 不 为 
“1" 的 学 者 集合 R',R' = R',U R',, 用 语义 计算 对 其 专 
长 标签 作 补充 评价 。 训 练 Word2vec 词 向 量 ,采用 余弦 
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公式 计算 R' 对 应 的 评测 标准 词 $ 及 专长 标签 了 的 语 
义 相 似 度 sim ,相似 度 超过 特定 闵 值 的 标签 也 被 认为 满 
意 。 对 VreR' 或 R',, 计 算 其 专长 标签 与 评测 标准 的 
词 向 量 相 似 度 ,如 果 sim 宇 0.9 的 专长 标签 数 达 到 半数 
及 以 上 , 则 认为 对 7 生成 的 标签 可 达到 满意 。 在 R'. 及 
R', 中 ,专长 标签 满意 的 科研 人 员 比 率 P, 分 别 为 6.6% 
和 8.9% 。 

词 向 量 生成 方法 具体 如 下 :将 所 有 中 英文 成 果 的 
标题 .关键 词 .摘要 以 及 对 应 学 者 专业 领域 分 别 进行 文 
本 预 处 理 得 到 分 词 元 素 , 而 后 调用 gensim 的 Word2vec 
模块 训练 并 生成 词 向 量 模型 ,每 个 分 词 元 素 对 应 一 个 
100 维 的 词 向 量 。 其 中 , 预 处 理 包 括 切 分 .标注 词性 、 
去 除 停 用 词 ,保留 名 词 .动词 形容词 等 词性 。 任 一 词 
汇 的 词 向 量 是 由 分 词 后 每 个 元 素 的 词 向 量 进行 平均 池 
化 得 到 。 

5.4 实验 结果 分 析 

经 过 上 述 两 阶段 评判 ,中 文 和 英文 专长 标签 满意 
的 科研 人 员 总 比率 PP 分 别 达到 了 71.9% 和 77.2% 。 
考虑 到 评价 标准 S 在 数量 和 语义 粒度 上 的 不 足 , 这 样 
的 标识 正确 率 能 够 说 明 笔 者 所 提 方 法 给 出 的 学 术 专 长 
标签 的 合理 性 。 本 文 方法 突破 了 文献 关键 词 的 粒度 不 
一 \ 细 粒度 词汇 多 的 局 限 ,可 以 用 具有 概括 性 的 恰当 词 
汇 来 表示 学 者 专长 ;而 作为 评价 标准 的 专长 描述 来 自 
人 才 公 示 , 这 一 信息 通常 粒度 过 粗 ,例如 的 评价 基 
准 是 “临床 麻醉 ", 所 以 无 法 从 字面 上 确认 匹配 情况 ， 
笔者 采用 语义 吻合 或 接近 的 原则 进行 评价 ,结果 见 表 
5。 在 人 工 打 分 实验 中 ,由 于 一 些 科 研 人 员 的 领域 专业 
性 较 强 ,对 评测 者 形成 一 定 程 度 的 认 知 障碍 ,而 语义 计 
算 实验 减少 了 主观 判断 失误 造成 的 影响 。 

表 5 专长 标签 满意 的 科研 人 员 比 率 分 析 


人 工 打 分 判定 标签 ”语义 计算 判定 标签 


标签 满意 的 人 员 


评价 指标 ,ww | Si 

平价 指标 满意 的 人 员 比 率 P， 满 意 的 人 员 比 率 P， 总 比率 己 
中 文 标签 65.3% 6.6% 71,9% 
英文 标签 68.3% 8.9% 77.2% 


本 研究 也 注意 到 文本 语 料 的 规模 限制 了 词 向 量 的 
计算 ,导致 部 分 领域 词汇 以 及 专长 标签 无 法 计算 词 向 
量 。 总 体 而 言 ,笔者 所 提 方 法 能 较 好 地 识别 出 用 来 标 
识 学 者 专长 的 中 英文 标签 ,并 且 在 主题 术语 识别 .标签 
权重 分 配 和 评价 方法 上 具有 一 般 性 ,能 够 推广 到 不 同 
领域 的 学 者 专长 标识 。 


6 ”结论 和 展望 


笔者 分 析 学 者 成 果 中 揭示 其 学 术 专长 的 重要 因 


101 


图 二 情报 三 作 


第 63 卷 第 20 期 2019 年 10 月 


ChinaXiv 合 作 期 刊 


素 ,构造 层次 模型 得 到 权重 分 配 ;采用 TextRank 和 概 
念 链接 技术 分 别 识别 中 英文 成 果 内 容 中 的 主题 术语 ， 
为 描述 专长 提供 更 丰富 的 合理 候选 词 ;最 后 根据 多 种 
权重 因素 筛选 具有 领域 共识 和 专长 概括 性 的 标签 ,从 
而 解决 学 者 专长 识别 问题 。 以 人 工 打 分 和 语义 计算 实 
验 评价 专长 标签 识别 效果 ,表明 笔者 所 提 方 法 具有 一 
定 的 合理 性 。 在 测试 数据 上 ,中 英文 标签 结果 满意 的 
人 员 占 比分 别 为 71.9% 和 77.2% 。 
本 文 的 主要 贡献 在 于 :提出 并 实现 了 特定 领域 

大 规模 识别 学 者 专长 标签 的 方法 。 综 合 学 者 的 成 果 内 
容 及 学 术 贡献 等 多 种 特征 建立 层次 分 析 模型 ,挖掘 描 
述 学 者 专长 知识 的 主题 术语 ,进而 识别 出 粒度 均匀 且 
具有 领域 共识 的 学 者 专长 标签 。@ 探 索 了 主题 术语 直 
接 和 和 间接 生成 方法 。 针 对 中 英文 不 同 语种 及 有 无 外 部 
知 这 库 的 情况 提出 解决 途径 ,拓宽 了 本 文 的 应 用 范围 。 
@ 提 出 了 合理 的 实验 设计 与 评价 方案 。 将 人 工 打 分 与 
语 交 计算 相 结合 来 评价 专长 标签 识别 方法 。 针 对 评测 
标 奖 词汇 数量 少 .语义 有 限 造 成 人 工 评价 依据 不 足 的 
情况 ,采取 了 语义 计算 的 补充 策略 解决 评价 受 限 的 问 
s 

QJ 未 来 研究 的 改进 之 处 如 下 :中 专长 标签 识别 实验 
赂 握 有 限 。 后 续 拟 在 更 大 的 中 文 和 英文 数据 集 上 对 学 
狐 老 长 标签 识别 效果 进行 实验 评测 。@ 实 验 设 计 有 待 
深信 组 化 。 在 对 成 果 特 征用 层次 分 析 法 进行 建 模 时 ， 
判 汤 和 矩阵 的 赋值 有 一 定 主观 性 , 且 一 些 领域 并 非 按 照 
者 贡献 来 署名 。 后 续 研 究 可 融入 同行 评议 意见 、 作 
者 贾 献 说 明 等 因素 优化 权重 分 配 ,使 结果 更 加 合理 
人 (评测 粗略 判断 结果 的 整体 合理 性 后 ,应 该 进一步 
具体 判断 每 个 标签 的 识别 效果 。 在 语义 计算 评价 时 ， 
在 更 大 的 领域 数据 集 上 训练 词 向 量 模型 将 有 助 于 改进 
词汇 表示 的 合理 性 。@ 中 英文 文本 混合 情况 下 通用 识 
别 方法 的 探索 。 在 实际 数据 中 ,中 文成 果 也 有 英文 术 
语 存在 ,不 能 完全 将 其 按照 革 一 种 语种 进行 区 分 ,应 采 
用 更 加 通用 的 方法 来 识别 学 者 的 专长 标签 。 
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Identifying Expertise Tags of Scholars by Multiple Features of Academic Publications 
Chen Chong: Li Nan' Liang Bing Wang Chenlin Xu Zengxulin: Zheng Tingting 
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EAbstract: [ Purpose/ significance | Identifying expertise tags of scholars is the most critical task in scholar profiling. 


Expertise tags contribute to finding peer experts, clustering domain scholars and selecting reviewers. | Method/ process | 
Thisjstudy analyzed related factors on the scholar expertise in academic publications , then constructed a hierarchical analysis 
model on the weight allocation of the factors. The TextRank algorithm has been used to identify topical terms in Chinese cor- 
pus ，and the conceptual linking technique in English corpus. The extracted terms ,together with the previously analyzed fac- 
tors have been combined to select the expertise tags of the scholars. In this study, a group of honored scholars of different 
domains have been selected. Their research expertise information from their resumes have been taken as evaluation bench- 
mark. And the expertise tags extracted from their publications have been compared with the benchmark by human judgment 
and additional semantic similarity judgment. [ Result/conclusion | The evaluation shows that the expertise tags of 71.9% 
scholars are acceptable for Chinese, and 77.2% for English. The experiment proves that the method proposed in this article 
is pragmatic and may lead to reasonable results. The chief innovation of this study lies in three aspects, Firstly, term extrac- 
tion approaches that suit to different application conditions have been explored, such as the language of publication and the 
availability of domain knowledge base. Secondly, multiple features have been combined together to identify the expertise tags 
of scholars, including the content of publications, the substantial contribution to the publications of the scholars, and the in- 
fluence to the domain of the publications. Thirdly, a reasonable experimental design and evaluation method is proposed, and 
the proposed approach has been verified by combining manual scoring and semantic calculation results. 

Keywords: scholar profiling expertise tagging analytic hierarchy process term extraction evaluation on expert- 
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